04:30
Maestría en Mercadeo
PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES,…
Puedes encontrarme en:
Mecanismo de evaluación:
Los datos como recurso estratégico: Nuevas oportunidades, segmentos del mercado, entendimiento del consumidor
El término fue acuñado por Gartner a mediados de los años 90, pero el concepto se origina en los años 70 con el comienzo de los sistemas de información gerenciales (MIS, Management Informations System). Hoy en día se implementan sistemas conocidos como:
El término fue acuñado por Gartner a mediados de los años 90, pero el concepto se origina en los años 70 con el comienzo de los sistemas de información gerenciales (MIS, Management Informations System). Hoy en día se implementan sistemas conocidos como:
El término fue acuñado por Gartner a mediados de los años 90, pero el concepto se origina en los años 70 con el comienzo de los sistemas de información gerenciales (MIS, Management Informations System). Hoy en día se implementan sistemas conocidos como:
Un sistema de inteligencia de negocios incluye herramientas y técnicas que proporcionan grandes capacidades para la transformación de los datos en conocimiento que contribuyan en la toma estratégica de decisiones que se conviertan en acciones oportunas.
INFORMACIÓN + CONVERSACIÓN + ACCIÓN = TRANSFORMACIÓN
Estaremos hablando de conceptos, técnicas y herramientas que constituyen el soporte de la inteligencia de negocio y la analítica de negocios como:
Paquete de uso libre
Tiene todos los métodos que necesitamos
Incluye paquetes específicos en muestreo como TeachingSampling, samplesize4surveys, survey, srvyr, sampling, etc
tidyverseGalton hizo importantes contribuciones en muchos campos de la ciencia, incluyendo la meteorología (mapas meteorológicos), la estadística (regresión y correlación), la psicología (sinestesia), la biología (mecanismo de la herencia) y la criminología (huellas dactilares).
Fue el primero en introducir el uso de cuestionarios y encuestas para recopilar datos sobre comunidades humanas.
Introdujo las reglas de probabilidad en la selección de muestras.
Neyman, J.(1934). On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection, Journal of the Royal Statistical Society: Series B, 97 (4), 557–625.
Implementó los diseños de muestreo en la Oficina del Censo y la Oficina de Estadísticas Laborales de EEUU.
Pionero en establecer el Muestreo de Encuestas como un estándar de excelencia para la recolección de datos en agencias gubernamentales.
Olkin, I. (1987). Una conversación con Morris Hansen. Statistical Science 2, 162-179
Reducción de costos (eficiencia).
Obtener información rápida (tiempo).
En ocasiones es la única forma de obtener información (procesos de control de calidad).
¿Cualquier muestra es buena?. ¿Es suficiente con que la muestra sea muy grande?
Para usted, ¿cuál es un tamaño de muestra adecuado?, ¿cuáles cree que son los factores que afectan el tamaño de muestra?
04:30
03:00
03:00
“Todos los modelos son errados pero algunos son útiles”
George Box (1919 - 2013).
Discutamos los siguientes conceptos por 5 minutos:
05:00
Universo ideal: Se trata del conjunto sobre el cual el investigador y no propiamente el muestrista pretende obtener algún tipo de información. Definir Alcance: Ej. Intención de voto - ¿Rural?
Población Objetivo: Constituye el conjunto de elementos que partiendo del universo ideal pueden ser realmente alcanzados por la investigación. Lo anterior se puede dar por razones operativas, políticas, económicas, etc.
Marco Muestral: Dispositivo que permite IDENTIFICAR y UBICAR a todos los elementos de la población objetivo.
TAREA: Investigue qué es y cómo se obtiene el Marco Geoestadístico Nacional (MGN).
Operación estadística
Es la aplicación del conjunto de procesos y actividades que comprende la identificación de necesidades, diseño, construcción, recolección o acopio, procesamiento, análisis, difusión y evaluación, la cual conduce a la producción de información estadística sobre un tema de interés nacional o territorial.
Unidades estadísticas
Entidad acerca de la que se busca información y para la que se compilan las estadísticas. Puede dividirse en las siguientes categorías: unidad de observación, unidades de análisis y unidad de muestreo.
Variables de interés
Regularmente se denotan como \(y_k\), \(z_k\) o \(x_k\), y sobre estas se definen los parámetros a investigar que pueden ser: Totales, razones, proporciones, indicadores, índices.
Por ejemplo, total de personas desempleadas, total de personas que consumen un producto, proporción de personas que votarán por el candidato A, proporción de hogares en pobreza condición de pobreza extrema, ventas por \(m^2\), promedio de ingresos de los hogares.
Identifique:
La SED realizó una investigación en los colegios oficiales de la ciudad de Bogotá D.C. con el fin de medir el clima escolar de las instituciones, para ello usó una muestra de 658 sedes educativas, en las cuales se seleccionaron estudiantes de los grados 3°, 5°, 7° y 9° para aplicar un instrumento donde se indagan, entre otros, los aspectos sobre el bulling, relaciones sociales, nivel de satisfacción con la sede educativa.
Una campaña política para la Presidencia de la República realizó una investigación para establecer las estrategias a seguir. Para ello se dividió al país en 7 regiones, y dentro de cada una se dividieron los municipios en tres tipos: grandes, medianos y pequeños. Dentro de cada tipo se seleccionó una muestra de municipios, dentro de los municipios seleccionados se usó el MGN para seleccionar segmentos, hogares y finalmente personas. La muestra consideró a 6430 personas con edad para votar en 89 municipios, los cuales respondieron por el conocimiento de los candidatos, la intención de voto y los aspectos que consideran que actualmente son los principales problemas del país.
Existen dos grandes categorías de métodos de muestreo
Muestreo probabilístico: Implica que todos los elementos de una población objetivo tienen una probabilidad CONOCIDA a priori de ser seleccionados y que al momento de la selección se aplica un algoritmo aleatorio que garantiza que dichas probabilidades se cumplan. Permite generalizar los resultados a toda la población pero son costosos
Figura: Fuente de la imagen: Scribbr - Sampling Methods
Existen dos grandes categorías de métodos de muestreo
Muestreo NO probabilístico: Son todas las demás muestras donde el investigador puede influenciar la selección o debido a la inexistencia de un marco muestral o por ser un target de difícil consecución no es posible conocer las probabilidades a priori. No es posible hacer inferencia a la población, es de bajo costo y fácil aplicación.
Figura: Fuente de la imagen: Sampling Methods
Defina a \(U\) un universo1 de elementos \(\{U_1,\ldots,U_N\}\) finito y conocido de antemano con una variable de interés \(Y\) que toma valores \(\{y_1,\ldots,y_N\}\). Sea el parámetro \(\theta\) (medida del universo) una función de \((y_1,\ldots,y_N)\) de esta manera a \(\theta(y_1,\ldots,y_N)\) se denomina parámetro y se denota \(\theta\).
Algunos parámetros de interés en un estudio por muestreo:
\[t_y=\sum_Uy_k\]
Algunos parámetros de interés en un estudio por muestreo:
\[\overline{y}_U=\frac{1}{N}\sum_Uy_k\]
Algunos parámetros de interés en un estudio por muestreo:
\[R=\frac{\sum_Uy_k}{\sum_Uz_k}=\frac{t_y}{t_z}\]
Sea \(s\) una muestra de elementos con mediciones \(y_1,\ldots,y_{n_s}\). Se define el estimador \(\widehat{\theta}\), como una función de los valores de la muestra que es construido de tal manera que apunte al valor del parámetro \(\theta\).
Estimador del total
\[\widehat{t}_y = ?\]
Estimador del promedio
\[\overline{y}_s=\frac{1}{n_s}\sum_sy_k; \hspace{1.0cm} \widetilde{y}_s=\sqrt[n_s]{\prod_sy_k}\]
Note que la proporción, promedio y razón son casos particulares de la estimación de un total.
¿Qué buscamos en un estimador?
Si \(\widehat{\theta}\) es una función basada en una suma de variables aleatorias independientes el teorema central de límite permite encontrar una expresión para la estimación por intervalo bajo ciertas condiciones de regularidad. En caso de que \(\mathbb{E}(\widehat{\theta})=\theta\) se espera con una confiabilidad del \((1-\alpha)100\%\) que: \[\theta \in \left(\widehat{\theta}-z_{1-\alpha/2}\sqrt{V(\widehat{\theta})}, \widehat{\theta}+z_{1-\alpha/2}\sqrt{V(\widehat{\theta})}\right),\]
en donde \(z_{1-\alpha/2}\) es el percentil correspondiente en una distribución normal estándar.
Simule 100 muestra de tamaño 1000 proveniente de una distribución uniforme en \((0,1)\). Calcule el estadístico \(\bar{y}_s\) para cada una de las 100 muestras y realice los histogramas para \(n=5, 10, 15, 20, 25, 30, 40, 50, 60, 80, 100\). Concluya.
Paso 1: Construir el marco de datos con los valores
Veamos la distribución de \(y\) en algunas de las muestras
¿Cómo es la distribución de \(\sum_sy_k\)?
¿Cómo es la distribución de \(\sum_sy_k\)?
Definición:
Sea \(s \subseteq U\) una muestra probabilística y sea \(S\) el conjunto de todas las muestras posibles. La función de medida de probabilidad:
\[\begin{align*} \mathbf{P}: & S \rightarrow (0,1) \\ & s_i \mapsto p(s_i) \end{align*}\]
Dado el conjunto \(S\), un diseño de muestreo es una función \(p(\cdot)\), tal que \(p(s_i)\) es la probabilidad de que la muestra \(i\) sea la seleccionada.
Un diseño de muestreo es aleatorio simple si:
\[\begin{equation} p(s_i)=\begin{cases} \frac{1}{\binom{N}{n}} \hspace{0.5cm} \forall \textit{$s$ de tamaño $n$ de $N$ sin repocisión} \\ \hspace{0.2cm} 0 \hspace{0.7cm} \textit{en otro caso}\end{cases} \end{equation}\] \(n\) corresponde al tamaño de la muestra mientras que \(N\) corresponde al tamaño del universo.
Tu turno: Construya el marco y el espacio muestral basado en el gasto de \(N=10\) personas con muestras de \(n=3\) elementos
04:00
Coordinado Negativo
Tu turno: Seleccione una muestra aleatoria simple de tamaño \(n=3\) elementos del universo de \(N=10\) usando el algoritmo coordinado negativo
03:00
Fan-Muller-Rezucha (1962)
Tu turno: Seleccione una muestra aleatoria simple de tamaño \(n=3\) elementos del universo de \(N=10\)
?TeachingSampling::S.SI()sample(x, size)\[p(s_i)=\underbrace{\pi\cdot\pi\cdots\pi}_{n_s \text{ veces}}\underbrace{(1-\pi)(1-\pi)\cdots(1-\pi)}_{N-n_s \text{ veces}}\]
\[p(s_i)=\begin{cases} \pi^{n_s}(1-\pi)^{N-n_s} \forall s \textit{con } n_s \textit{ elementos sin reposición} \\ \hspace{0.2cm} 0 \hspace{0.7cm} \textit{en otro caso}\end{cases}\]
\(\pi\) se fija a priori por experiencia y es igual para todos los elementos de \(U\), nótese que \(n_s\) es un tamaño de muestra aleatorio que puede incluir a todos o a ningún elemento en la muestra.
Revisión de equipajes en aeropuertos.
Cuando no se dispone de un marco de muestreo de manera explícita pero se sabe que la población está ordenada por un rótulo en particular. Por ejemplo, los hogares dentro de una manzana están ordenados por su dirección o número de apartamento.
\(p(s_i)=\begin{cases} \frac{1}{\binom{a}{r}} \hspace{0.5cm} s= \{a_j, a_k\}, r=2 \\ \hspace{0.2cm} 0 \hspace{0.7cm} \textit{en otro caso}\end{cases}\)
\(N=an+r\), el tamaño de muestra se define como la parte entera del cociente \(N/a\).
Se define probabilidad de inclusión de primer orden del elemento \(k\)
\[\pi_k=\sum_{k \in s_i}p(s_i)\]
Sea:
\[I_k=\begin{cases}1 \hspace{0.3cm} \text{si $k \in s$} \\ 0 \hspace{0.3cm} \text{en otro caso}\end{cases}\]
Entonces \(\pi_k=P(I_k=1)\)
ejemplo MAS
Se define probabilidad de inclusión de segundo orden de los elementos \(k\) y \(l\)
\[\pi_{kl}=\sum_{k,l \in s_i}p(s_i)\]
Entonces \(\pi_{k,l}=P(I_kI_l=1)\)
Sea \(\widehat{\theta}\) una estadística o estimador entonces bajo el diseño muestral \(p(\cdot)\) se define:
Sea \(\widehat{\theta}\) una estadística o estimador entonces bajo el diseño muestral \(p(\cdot)\) se define:
Gutiérrez, H. A. (2009). Estrategias de muestreo: Diseño de encuestas y estimación de parámetros. Facultad de Estadística, Universidad Santo Tomás.
Lohr, S. L. (2021). Sampling: design and analysis. Chapman and Hall/CRC.
Särndal, C. E., Swensson, B., & Wretman, J. (2003). Model assisted survey sampling. Springer Science & Business Media.
Valliant, R., Dever, J. A., & Kreuter, F. (2013). Practical tools for designing and weighting survey samples (Vol. 1). New York: Springer.
Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.
Si se copia parcial o totalmente, debe citar la fuente como:
Babativa-Márquez, J.G. Diapositivas del curso de muestreo probabilístico. URL: https://jgbabativam.github.io/Muestreo-I/Semana1.html. 2024.
Diapositivas disponibles en GitHub.